首页> 外文OA文献 >Structural Return Maximization for Reinforcement Learning
【2h】

Structural Return Maximization for Reinforcement Learning

机译:强化学习的结构回归最大化

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。
获取外文期刊封面目录资料

摘要

Batch Reinforcement Learning (RL) algorithms attempt to choose a policy froma designer-provided class of policies given a fixed set of training data.Choosing the policy which maximizes an estimate of return often leads toover-fitting when only limited data is available, due to the size of the policyclass in relation to the amount of data available. In this work, we focus onlearning policy classes that are appropriately sized to the amount of dataavailable. We accomplish this by using the principle of Structural RiskMinimization, from Statistical Learning Theory, which uses Rademachercomplexity to identify a policy class that maximizes a bound on the return ofthe best policy in the chosen policy class, given the available data. Unlikesimilar batch RL approaches, our bound on return requires only extremely weakassumptions on the true system.
机译:批量强化学习(RL)算法尝试在给定固定训练数据集的情况下,从设计人员提供的策略类别中选择策略。如果仅提供有限的数据,则选择最大化回报估计的策略通常会导致过度拟合与可用数据量相关的策略类的大小。在这项工作中,我们专注于学习大小适合可用数据量的策略类。我们通过使用统计学习理论中的结构化风险最小化原理来实现这一目标,该原理使用Rademachercomplexity来确定一个策略类别,该策略类别在给定可用数据的情况下最大化所选策略类别中最佳策略的收益范围。与类似的批处理RL方法不同,我们的收益界限仅需对真实系统进行非常弱的假设。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号